NB. : see Readme for installation instructions

Concours Data is for Good : aidons Paris à devenir une smart-city !

Contexte

Dans le cadre du programme "Végétalisons la ville" organisé par la ville de Paris, nous proposons ici une analyse exploratoire des données OpenData concernant les arbres gérés par la ville de Paris.

L'objectif est d'aider Paris à devenir une "Smart-City" en gérant ses arbres de la manière la plus responsable possible. C'est-à-dire en optimisant les trajets nécessaires pour entretenir ces arbres.

Outils utilisés

Nous allons utiliser le langage Python, et présenter ici le code, les résultats et l'analyse sous forme de Notebook Jupyter.

Nous allons aussi utiliser les bibliothèques usuelles d'exploration et analyse de données, afin d'améliorer la simplicité et la performance de notre code :

Chargement des données et premier aperçu

Les données mises à disposition sont issues de opendata.paris.fr et représentent "l’ensemble des arbres, ainsi que les arbres d’alignement, présents sur le territoire parisien et des cimetières extra-muros (hors de Paris)."

Nous allons dans un premier temps simplement charger les données en mémoire et observer quelques valeurs.

Nous voyons que, pour chaque arbre listé, nous disposons des informations suivantes (la description des colonnes est disponible sur le site OpenData) :

Nous voyons déjà que parmis les quelques premières données :

Nous allons observer plus précisément les types de valeurs et les valeurs vides :

Nous voyons alors que :

Première analyse statistique

Nous allons maintenant chercher à comprendre comment sont réparties les valeurs pour chaque caractéristique de nos arbres.

Une simple description statistique de chaque colonne nous donne les informations suivantes :

Observons maintenant la distribution empirique de chaque variable, de manière non visuelle dans un premier temps, afin de voir quels types de graphes seront ensuite le plus adaptés :

Nous voyons alors que :

Un peu de nettoyage

Nous allons :

Améliorons la gestion des arbres

Nous allons ici nous appuyer sur des analyses statistiques et des graphiques afin de voir comment il serait possible d'améliorer le service de gestion des arbres de Paris.

Quels arbres faut-il mesurer à nouveau ?

Pour la suite de l'analyse, nous allons éliminer les données abberrantes ("outliers). Pour celà, nous allons utiliser le critère IQR. Nous allons considérer toutes les données de taille trop éloignées de la norme, ainsi que les valeurs égales à 0 comme des données aberrantes.

Nous allons dans un premier temps afficher une cartographie de ces arbres, car ceux-ci devront être mesurés à nouveau afin d'améliorer la fiabilité de la gestion de nos arbres. Nous allons ensuite considérer ces données comme nulles (NaN).

Nous voyons qu'un arbre "normal" aura :

Nous allons maintenant visualiser où sont situé ces arbres "anormaux" (outliers), afin de planifier les tournées de mesure de ces arbres.

Nous voyons ici la carte des 44171 arbres qu'il faudrait mesurer à nouveau.

En attendant que ces arbres soient mesurés à nouveau, nous allons maintenant les ignorer dans nos prochaines analyses : passer à NaN les valeurs aberrantes.

Quels arbres ont un développement anormal ?

Afin de gérer efficacement le patrimoine arboricole, il faut être capable de détecter les potentiels arbres malades ou qui ont des problèmes de développement.

Nous allons ici chercher quels abres semblent avoir un développement anormal et donc qu'il faudrait contrôler en priorité.

Nous voyons qu'il y a des arbres qui ont une taille anormale par rapport à leur stade de développement. Il faudrait contrôler leur santé et leur apporter les soins nécessaires (engrais, arrosage, traitements, ...).

Où sont situés les arbres qui vont nécessiter le plus d'entretien ?

Plus un arbre est grand, plus il nécessitera de techniciens, de temps, de matériel, d'arrosage et de produits pour son entretien. Maintenant que nous avons éliminé les valeurs aberrantes, nous allons cartographier les arbres en les pondérant avec leur hauteur.

Quels sont les arbres les plus plantés actuellement ?

Nous allons travailler sur les données de catégories d'arbes, en se limitant aux valeurs les plus représentatives. Nous allons chercher à observer quel sont les types d'arbres les plus représentés selon leur type, et leur localisation.

Nous voyons ici que seules 4 essences d'abres représentent plus de 50% des arbres plantés. Cette information est importante pour adapter le matériel et les produits nécessaires à l'enretien des arbres. Cette information montre aussi qu'il pourrait y avoir un problème diversité des essences et donc de résilience du parc arboricole de Paris.

Nous voyons ici que nous avons beaucoup de peupliers, notamment dans le 7ème, le 12ème et le 16ème, ainsi que des marroniers dans le 8ème et le 16ème arrondissement. Cette information permet de dimensionner et répartire géographiquement les équipes et le matériel en fonction des types d'arbres plantés dans chaque arrondissement.

Nous voyons ici que la plupart des arbres sont des platanes adultes. Cette information permet d'optimiser les achats et le stockage du materiel et des produits adaptés spécifiquement à l'entretien de ces arbres.